Search CORE

246 research outputs found

Prva in druga izdaja SSKJ

Author: Simon Krek
Publication venue: 'University of Ljubljana'
Publication date: 01/12/2014
Field of study

V prispevku obravnavamo razlike med prvo in drugo izdajo Slovarja slovenskega knjižnega jezika. Analiza obsega dva ločena postopka: detajlno primerjavo celotnega geslovnika obeh slovarjev in analizo 2.500 geselskih člankov iz obeh slovarjev, po sto iz vsake črke. Analiza kaže, da je v drugi izdaji SSKJ vsebovan poseg v pravopisno in pravorečno podobo slovenščine brez razvidnega mandata za ta poseg, da so spremembe naključne in nekonsistentne, pri čemer je poleg razrušenja konsistentnega slovarskega opisa iz prve izdaje vprašljiv predvsem poseg v slovnični opis slovenskega jezika, vsebovan v drugi izdaji, in da zaradi redakcijske odločitve, da se popolnoma zabriše možnost razločevanja, ali slovarski podatki izhajajo iz prve izdaje ali iz Slovarja novejšega besedja slovenskega jezika, druga izdaja prinaša strokovno vprašljiv slovarski opis sodobnega slovenskega jezika. S strokovnega, leksikografskega stališča bi bilo primerneje, če bi prva izdaja ostala nespremenjena, s Slovarjem novejšega besedja slovenskega jezika kot svojo ločeno publikacijo. Poleg tega druga izdaja ni prosto dostopna na spletu, nobena od izdaj pa ni prosto dostopna kot slovarska baza v računalniško procesljivem formatu

Directory of Open Access Journals

Journals of Faculty of Arts, University of Ljubljana

Korpusne metode in njihov odsev v jezikoslovnih teorijah 20. stoletja

Author: Simon Krek
Publication venue: 'University of Ljubljana'
Publication date: 01/12/2013
Field of study

V 20. stoletju se je strukturalizem vzpostavil kot osrednja jezikoslovna teorija, v prvi polovici stoletja predvsem s svojim začetnikom Ferdinandom de Saussurjem, v drugi polovici pa z likom Noama Chomskega. Zadnji je vztrajno zavračal smiselnost analiz obsežnih količin besedil, ki jih je obravnaval kot nezanimive v primerjavi z jezikovno intuicijo naravnega govorca. Vzporedno s strukturalizmom so se množile tudi jezikoslovne smeri, ki so opozarjale na nezadostnost prevladujoče jezikoslovne paradigme in na teoretske uvide, ki jih je omogočila šele sistematična analiza velikih količin besedil. Prispevek obravnava dileme, ki izhajajo iz navedene dihotomije in umešča t. i. korpusno jezikoslovje v širši jezikoslovni kontekst

Directory of Open Access Journals

Journals of Faculty of Arts, University of Ljubljana

Cross-lingual Dependency Parsing of Related Languages with Rich Morphosyntactic Tagsets

Author: Agić Željko
Dobrovoljc Kaja
Krek Simon
Merkler Danijela
Moze Sara
Tiedemann Jörg
Publication venue: 'Association for Computational Linguistics (ACL)'
Publication date: 01/01/2014
Field of study

This paper addresses cross-lingual dependency parsing using rich morphosyntactic tagsets. In our case study, we experiment with three related Slavic languages: Croatian, Serbian and Slovene. Four different dependency treebanks are used for monolingual parsing, direct cross-lingual parsing, and a recently introduced crosslingual parsing approach that utilizes statistical machine translation and annotation projection. We argue for the benefits of using rich morphosyntactic tagsets in cross-lingual parsing and empirically support the claim by showing large improvements over an impoverished common feature representation in form of a reduced part-of-speech tagset. In the process, we improve over the previous state-of-the-art scores in dependency parsing for all three languages.Published versio

Wolverhampton Intellectual Repository and E-theses

Defining collocation for Slovenian lexical resources

Author: Iztok Kosem
Polona Gantar
Simon Krek
Publication venue: 'University of Ljubljana'
Publication date: 01/08/2020
Field of study

In this paper, we define the notion of collocation for the purpose of its use in machine-readable language resources, which will be used in the creation of electronic dictionaries and language applications for Slovene. Based on theoretical and lexicographically-driven studies we define collocation as a lexical phenomenon, defined by three key aspects: statistical, syntactic, and semantic. We take lexicographic relevance as a point of departure for defining collocations within the typology of word combinations, as well as for distinguishing them from free combinations. Free combinations are (frequent) syntactically valid word combinations without lexicographic value and consequently there is no need for the description of their meaning, or syntactic role. Next, we distinguish collocations from all multiword lexical units (compounds, phraseological units and lexico-grammatical units) using the lexicographic view that multiword lexical units, whose meaning is not a sum of its parts, require a description of their meaning whereas collocations do not. In the final part, we return to the three aspects of collocation and their role in automatic extraction of collocational information from corpora. Semantic criterion or dictionary relevance of extracted collocations has particularly exposed the problem of semantically broad collocates such as certain types of adverbs, adjectives and verbs, and word which feature in different syntactic roles (e.g. pronouns and adjuncts). We discuss a particular issue of collocations related to proper names and the decisions about their inclusion into the dictionary based on the evaluation of lexicographers

Directory of Open Access Journals

Journals of Faculty of Arts, University of Ljubljana

Avtomatizacija leksikografskih postopkov

Author: Iztok Kosem
Polona Gantar
Simon Krek
Publication venue: 'University of Ljubljana'
Publication date: 01/12/2013
Field of study

V razpravi opisujemo poskus uvajanja postopkov avtomatizacije v proces izdelave slovarjev, ki smo ga uporabili v končni fazi izdelave leksikalne baze za slovenščino (LBS). Gre za avtomatizacijo dela leksikografskega procesa, pri katerem računalnik na podlagi vnaprej določenih parametrov izbere, izloči ter neposredno v program za izdelavo slovarja ali slovarske baze prenese vrsto leksikalnogramatičnih podatkov o konkretni lemi, ki jih leksikograf nato uporabi za pomensko analizo in končno izdelavo slovarskega gesla. Optimalnost avtomatsko izluščenih podatkov smo določali s sprotnim prilagajanjem parametrov glede na različne frekvenčne skupine lem po posameznih besednih vrstah in s postopnim prilagajanjem hevristik v aplikaciji GDEX za izbor dobrih korpusnih zgledov. Prispevek zaključujemo s prikazom vključitve postopka avtomatskega luščenja leksikalnih podatkov v predlagan slovar sodobnega slovenskega jezika

Directory of Open Access Journals

Journals of Faculty of Arts, University of Ljubljana

Razpoznavanje imenskih entitet v slovenskem besedilu

Author: Simon Krek
Tadej Štajner
Tomaž Erjavec
Publication venue: 'University of Ljubljana'
Publication date: 01/12/2013
Field of study

Članek predstavlja algoritem in implementacijo programa za razpoznavanje imen v slovenskem jeziku s pomočjo strojnega učenja. Nadzorovani pristop na osnovi pogojnih naključnih polj je naučen na označenem korpusu ssj500k. V korpusu, ki je prosto dostopen pod licenco Creative Commons CC-BY-NC-SA, so pri besednih pojavnicah poleg oblikoskladenjskih oznak in lem označena tudi imena organizacij, osebna, zemljepisna ter stvarna imena. Članek predstavlja vpliv na natančnost razpoznavanja ob uporabi oblikoskladenjskih oznak, leksikonov in konjunkcij sosednjih lastnosti. Ena od ugotovitev raziskave je, da so oblikoskladenjske oznake pri razpoznavanju entitet koristne. V kombinaciji z vsemi ostalimi lastnostmi doseže sistem na testni množici 74% natančnost in 72% priklic, pri čemer so najbolje razpoznana osebna imena, sledijo jim zemljepisna ter organizacijska in nazadnje stvarna imena. Novo spoznanje članka je tudi to, da lahko z delitvijo razreda vseh stvarnih imen na organizacije in preostala stvarna imena dosežemo boljše rezultate prepoznavanja tudi pri drugih razredih. Preizkusi na neodvisno označenih korpusi kažejo dobro posplošenost modela za osebna in zemljepisna imena. Programska oprema, narejena v raziskavi, je prosto dostopna pod licenco Apache 2.0 na naslovu http://ailab.ijs.si/~tadej/slner.zip, razvojne različice pa so na voljo na naslovuhttps://github.com/tadejs/slner

Directory of Open Access Journals

Primerjava običajnih in faktorskih modelov pri statističnem strojnem prevajanju iz angleščine v slovenščino z orodjem Moses

Author: Marko Robnik Šikonja
Sašo Kuntarič
Simon Krek
Publication venue: 'University of Ljubljana'
Publication date: 01/03/2018
Field of study

Strojno prevajanje je področje računalniške lingvistike, ki raziskuje uporabo programske opreme za prevajanje besedila iz enega jezika v drugega. Faktorsko statistično strojno prevajanje je različica statističnega, pri katerem besedilu dodamo jezikoslovne oznake na ravni besed in jih spremenimo v vektorje. Tako želimo izboljšati kakovost dobljenih prevodov. V prispevku opišemo uporabo odprtokodnega sistema Moses za faktorsko statistično strojno prevajanje iz angleščine v slovenščino. Iz besedilnega korpusa smo ustvarili več faktorskih in nefaktorskih prevajalnih modelov. Z njimi smo prevedli dve besedili s področja informacijskih tehnologij. Prvo je usmerjeno tržno in ima kompleksnejšo zgradbo, drugo pa je bolj tehnične narave. Prevode, ki smo jih dobili, smo na dva načina primerjali z dvema neodvisnima človeškima prevodoma in s prevodom, ki smo ga ustvarili s storitvijo Google Translate. Za prvi način primerjave smo uporabili metriko BLEU, za drugega pa so prevode pregledali človeški pregledovalci in podali subjektivno oceno, ki je pri prevajanju še vedno zelo pomembna. Čeprav rezultatov ne moremo primerjati neposredno zaradi različnih metrik, se gibanje ocen kakovosti pri obeh besedilih dobro ujema. Edina občutna razlika med računalniško in človeško oceno se pojavi pri prehodu na faktorske modele pri drugem besedilu. Analizirali smo zanesljivost ocenjevalcev in rezultate ocenjevanja. Ugotovili smo, da so naši modeli primernejši za tehnična besedila in da uporaba faktorskih modelov vidneje izboljša prevajanje kompleksnejših besedil

Directory of Open Access Journals

Journals of Faculty of Arts, University of Ljubljana

Towards Multilingual eLexicography by Means of Linked (Open) Data

Author: Carole Tiberius
Eveline Wandl-Vogt
Simon Krek
Thierry Declerck
Publication venue
Publication date: 02/04/2020
Field of study

Abstract. In this short paper, we document the current state of work consisting in mapping various lexicographic resources onto the OntoLex model, which is an OWL and RDF(s) based representation format. This model has been designed in the context of a W3C Community Group effort for supporting the publication of linguistic data in the Linked (Open) Data cloud. The deployment of OntoLex is currently being tested within the ISCH COST Action IS1305 European Network of e-Lexicography (ENeL), which is adapting to the field of digital lexicography guidelines that have been suggested by the LIDER FP7 Support Action

CiteSeerX